当 AI 长出爪子
2026 年 2 月,我听了一期播客,主持人 Scott Hanselman 和一个叫 Peter Steinberger 的开发者聊他做的开源项目 OpenClaw。标题叫《The Rise of The Claw》——“爪子的崛起”。
这个名字选得好。过去三年我们跟 AI 的交互方式,本质上都是“对话”:你问它答,你写它改,你贴代码它帮你 debug。即便加上了“agent”的外衣,大多数时候它还是一个待在浏览器标签页里、等你来找它的东西。
OpenClaw 想做的不一样。它想让 AI 伸出爪子——进入你的设备、你的消息应用、你的文件系统,在你不打开浏览器的时候也“在场”。你可以在 Telegram 里跟它说“把我那台电脑桌面上的照片找出来发给我”,它就真的去做了。不是模拟,不是演示,是真的在你的 Windows 机器上执行命令、找到文件、打包发送。
这听起来很酷。但仔细想,也很危险。
爪子能抓取,也能抓伤。这正是这个项目有意思的地方:它迫使你认真面对一个大多数 AI 产品刻意回避的问题——当大脑在云端,身体在本地,控制权到底归谁?
一、把脑和手拆开
大多数人第一眼看 OpenClaw,会以为它就是”一个 LLM 接上了 Telegram”。但如果只是这样,它不值得谈。
OpenClaw 做了一个关键的架构决策:把系统拆成两层。一层叫 Gateway,一层叫 Node。
Gateway 是控制平面——管会话、管路由、管工具调用、管消息渠道接入。你可以把它理解为”大脑”,或者更准确地说,”调度中心”。它通常跑在一台你信任的机器上,比如一台 Mac mini,或者一台 Linux 服务器。
Node 是设备侧的”肢体”。它以原生应用的形态运行在你的具体设备上——你的 Windows 电脑、你的 iPhone、你的 Android 手机——把”这台设备能做什么”暴露给 Gateway。比如跑命令、读文件、开摄像头、录屏幕、发通知。
为什么非要拆开?
因为”思考”和”行动”的信任边界完全不同。
思考可以发生在云端。你调用 Claude、GPT、Gemini,把问题发过去,拿回答案,这个过程的风险是可控的——最坏的情况是对话内容被模型厂商看到。但行动不一样。执行命令、读写文件、访问摄像头,这些事情必须发生在你的设备上,而且必须是你授权的。
如果你把思考和行动绑在一起,做成一个单体应用,那么要么你把整个系统放在云端(意味着你的设备变成远端服务器的傀儡),要么你把整个系统放在本地(意味着你得在每台设备上都跑一个完整的大模型)。两种方案都很糟糕。
拆开之后,你可以让 Gateway 跑在一个相对安全的地方,长期在线;让 Node 只在需要的时候被调用,而且每个 Node 只暴露你允许它暴露的能力。Scott 的例子就是:Gateway 跑在 Mac mini 上,但他是 Windows 用户,于是他装了一个 Windows Node,只把文件访问和命令执行暴露出来。然后他可以在地球另一端,通过 Telegram 让 AI 去他的 Windows 电脑上找文件。
过去做这件事,你需要远程桌面、SSH、内网穿透,或者”打电话叫孩子帮忙”。现在变成了一句话。
但这个便利不是免费的。它要求你理解自己暴露了什么。
二、门槛就是安全
这引出了 OpenClaw 最反直觉的设计决策:它故意不做一键安装。
Peter 说,他刻意把安装流程保持在“你得会用终端、得读文档”的水平。结果出现了一个“简化安装的作坊产业”,有人把安装脚本一键化了,他对此非常不满。
这听起来像程序员的傲慢。但 Scott 给了一个让我停下来想了很久的类比:开源人工胰腺项目。
那是一个开源的闭环胰岛素泵系统——你的血糖传感器数据实时传入,软件自动计算并注射胰岛素。这个项目故意不提供一键安装,因为如果搞错了,后果是致命的。它要求你理解整个系统在做什么,然后自己组装、自己承担风险。
OpenClaw 的风险没那么极端,但逻辑类似:这个系统连接你的真实通讯渠道,可以执行命令,可以读写文件,可以处理敏感信息。如果你完全不理解它的能力边界就把它跑起来,出问题只是时间问题。
所以门槛不是 bug,是 feature。准确地说,门槛是“风险教育”:你必须亲手走一遍配置流程,才能理解自己到底在部署什么、暴露了什么、授权了什么。
这让我想到一个更普遍的规律。在过去,软件工具的趋势一直是“越简单越好”——降低门槛就是降低用户成本,这几乎是公理。但当工具从“帮你看信息”变成“替你做事情”,这个公理开始松动。一个能替你执行命令的工具,和一个只给你看搜索结果的工具,门槛的含义完全不同。
前者的门槛是安全成本。降到零,就是把枪递到不会用枪的人手里。
三、让 AI 学会闭嘴
OpenClaw 还解决了一个我一直觉得被严重低估的问题:让 AI 知道什么时候不该说话。
如果你把 AI 接入群聊,你会立刻遇到一个尴尬:它会对每条消息都回复。每一条。不管相不相关,不管有没有必要。就像一个疯狂抢话的人。
这不是模型笨——恰恰相反,是模型太“勤快”了。语言模型的默认行为就是生成文本;你给它输入,它就会输出。“不说话”反而需要额外的设计。
OpenClaw 的做法很巧妙:让模型在决定不回复时输出一个特殊的标记——NO_REPLY。然后系统的投递层识别这个标记,把整条输出吞掉。从外部看,AI 就是“选择了沉默”。
这件事听起来简单,工程上却不容易。因为在流式输出时,你可能先收到 NO_,再收到 RE——你必须把这些碎片过滤掉,同时又不能误伤正常文本里恰好包含这几个字母的情况。
但比工程细节更有趣的是这个设计背后的哲学:在一个“AI 在场”的世界里,沉默是一种能力,而不是故障。当你的助手每天跟你交互几十次,你不希望它每次都插嘴。你希望它像一个好同事——在场、可用、但知道什么时候该闭嘴。
Peter 更进一步:他让 AI 知道自己运行在什么系统里。模型知道当前的渠道是什么、用户能看到什么、当前用的是哪个模型、推理过程是否对用户可见。这不是为了让 AI “有自我意识”,而是为了让它做出恰当的交际判断。
Scott 描述了一个场景:当他在 Discord 群聊里打开“显示思考过程”时,朋友们能看到 AI 的内心独白——它在想什么、在犹豫什么。有人觉得 AI 在嘲笑自己。Scott 说“我感觉好裸”。
这不是技术问题。这是礼仪问题。而礼仪,在长期使用的系统里,比聪明重要得多。
四、谁拥有你的上下文
现在说到最核心的问题。
每次讨论 AI 隐私,人们总是在问“对话内容有没有被模型厂商看到”。这个问题重要,但在 agent 时代,它只是冰山一角。
当 AI 可以执行命令、读取文件、访问日历、查看健康数据、截取屏幕,这些工具输出全部会进入模型的上下文窗口。你的文件路径、命令输出、浏览器截图、通讯录——这些比聊天内容敏感得多,也具体得多。
所以真正的隐私问题不是“你有没有用云模型”,而是“谁拥有你的上下文”。
OpenClaw 对这个问题的回答分三层:
第一层:控制面本地化。 Gateway 默认绑定在本机回环地址。你的会话状态、路由配置、技能定义、日志,都在你自己的机器上。你可以备份、迁移、审计。你不需要依赖某个云服务来“记住”你的上下文。
第二层:行动在本地发生。 文件操作、命令执行、屏幕截取,这些事情通过 Node 在你的设备上完成。它们不需要先上传到云端再执行。你至少有机会在数据进入模型之前做筛选和脱敏。
第三层:推理按需混合。 OpenClaw 不要求你在本地跑大模型。它承认云端模型更强、更灵活。但它把推理当作一个可替换的组件——你可以用 Opus 做深度任务、Sonnet 做日常聊天、Haiku 做后台心跳,甚至接入本地模型做唤醒词识别。推理是服务,不是绑定。
Scott 在播客里问他的 AI 助手“你这周过得怎么样”,AI 回答说:我每天醒来都是全新的,但我会先读 memory、读 daily logs,所以我知道自己是谁,知道正在做什么。
这段话打动他,不是因为 AI 真的有了“感受”,而是因为那种连续性是真实的——它来自本地文件里的记忆资产,来自每天例行的读写循环。不是平台施舍的,而是你自己拥有的。
当你换模型、换设备、换部署方式,你仍然能保留“同一个助手”的连续性。这就是上下文主权的意义。
五、爪子的代价
访谈快结束时,Scott 说了一句很真诚的话:如果世界上没有那么多坏人,电脑本来就应该能替我们做酷的事。“Claw 的快乐”就在于它真的在为我做事。
我同意这个感受。但 Peter 接下来说的话更真实:他确实想做一个“黑客乐园”,不想限制任何人。但现实是,很多人不读文档、乱改配置,只为了让系统“跑起来”;安全研究者会非常激进地报告风险;他不得不把大量精力从“做酷的东西”转移到“修补误用导致的漏洞”。
这是每个“能行动的 AI”系统都会经历的成长痛:
- 个人玩具阶段:默认信任边界小,可以大胆。
- 社区爆发阶段:用户快速扩张,误用变成常态。
- 安全债阶段:作者被迫从创新转向修补。
所以“故意不做一键安装”不是为了排斥新手,而是为了在爆发之前,让使用者先建立正确的心智模型。它在用门槛买时间。
六、下一幕
如果把 2023—2024 年概括为“提示词工程 + 一个大模型”,那 2025—2026 年正在进入下一幕:从 prompt 到 agent,从单次对话到持续运行,从“让我看答案”到“帮我把事办了”。
OpenClaw 不是唯一走这条路的项目,但它是少数几个把工程取舍摆到桌面上来谈的。它没有假装“一切都在本地”,也没有把“一切都交给云”。它说的是:控制面你自己拿着,行动在你的设备上发生,推理按需去云端取——然后你得理解这三者之间的边界在哪里。
“Claw”这个隐喻,最终说的是一件事:AI 正在从“能说”变成“能做”。这个转变带来的不只是便利,还有一整套我们尚未习惯的工程问题——信任分配、权限管理、上下文主权、以及“什么时候该闭嘴”。
说到底,当你给软件装上爪子,你就得开始认真想:它该抓什么,不该抓什么,以及万一抓错了,你能不能把它收回来。